198 research outputs found
Online Learning of a Memory for Learning Rates
The promise of learning to learn for robotics rests on the hope that by
extracting some information about the learning process itself we can speed up
subsequent similar learning tasks. Here, we introduce a computationally
efficient online meta-learning algorithm that builds and optimizes a memory
model of the optimal learning rate landscape from previously observed gradient
behaviors. While performing task specific optimization, this memory of learning
rates predicts how to scale currently observed gradients. After applying the
gradient scaling our meta-learner updates its internal memory based on the
observed effect its prediction had. Our meta-learner can be combined with any
gradient-based optimizer, learns on the fly and can be transferred to new
optimization tasks. In our evaluations we show that our meta-learning algorithm
speeds up learning of MNIST classification and a variety of learning control
tasks, either in batch or online learning settings.Comment: accepted to ICRA 2018, code available:
https://github.com/fmeier/online-meta-learning ; video pitch available:
https://youtu.be/9PzQ25FPPO
A New Data Source for Inverse Dynamics Learning
Modern robotics is gravitating toward increasingly collaborative human robot
interaction. Tools such as acceleration policies can naturally support the
realization of reactive, adaptive, and compliant robots. These tools require us
to model the system dynamics accurately -- a difficult task. The fundamental
problem remains that simulation and reality diverge--we do not know how to
accurately change a robot's state. Thus, recent research on improving inverse
dynamics models has been focused on making use of machine learning techniques.
Traditional learning techniques train on the actual realized accelerations,
instead of the policy's desired accelerations, which is an indirect data
source. Here we show how an additional training signal -- measured at the
desired accelerations -- can be derived from a feedback control signal. This
effectively creates a second data source for learning inverse dynamics models.
Furthermore, we show how both the traditional and this new data source, can be
used to train task-specific models of the inverse dynamics, when used
independently or combined. We analyze the use of both data sources in
simulation and demonstrate its effectiveness on a real-world robotic platform.
We show that our system incrementally improves the learned inverse dynamics
model, and when using both data sources combined converges more consistently
and faster.Comment: IROS 201
A New Perspective and Extension of the Gaussian Filter
The Gaussian Filter (GF) is one of the most widely used filtering algorithms;
instances are the Extended Kalman Filter, the Unscented Kalman Filter and the
Divided Difference Filter. GFs represent the belief of the current state by a
Gaussian with the mean being an affine function of the measurement. We show
that this representation can be too restrictive to accurately capture the
dependences in systems with nonlinear observation models, and we investigate
how the GF can be generalized to alleviate this problem. To this end, we view
the GF from a variational-inference perspective. We analyse how restrictions on
the form of the belief can be relaxed while maintaining simplicity and
efficiency. This analysis provides a basis for generalizations of the GF. We
propose one such generalization which coincides with a GF using a virtual
measurement, obtained by applying a nonlinear function to the actual
measurement. Numerical experiments show that the proposed Feature Gaussian
Filter (FGF) can have a substantial performance advantage over the standard GF
for systems with nonlinear observation models.Comment: Will appear in Robotics: Science and Systems (R:SS) 201
The Coordinate Particle Filter - A novel Particle Filter for High Dimensional Systems
Parametric filters, such as the Extended Kalman Filter and the Unscented
Kalman Filter, typically scale well with the dimensionality of the problem, but
they are known to fail if the posterior state distribution cannot be closely
approximated by a density of the assumed parametric form. For nonparametric
filters, such as the Particle Filter, the converse holds. Such methods are able
to approximate any posterior, but the computational requirements scale
exponentially with the number of dimensions of the state space. In this paper,
we present the Coordinate Particle Filter which alleviates this problem. We
propose to compute the particle weights recursively, dimension by dimension.
This allows us to explore one dimension at a time, and resample after each
dimension if necessary. Experimental results on simulated as well as real data
confirm that the proposed method has a substantial performance advantage over
the Particle Filter in high-dimensional systems where not all dimensions are
highly correlated. We demonstrate the benefits of the proposed method for the
problem of multi-object and robotic manipulator tracking
Combining Model-Based with Learning-Based Approaches for Autonomous Manipulation
Kollaboration zwischen Menschen und Robotern gewinnt zunehmend an Bedeutung in der Industrie und Forschung. Manipulation ist eine Grundvoraussetzung für eine erfolgreiche Kollaboration und deshalb eine grundlegende Forschungsfrage in der Robotik. Bei der Manipulation von Objekten, zum Beispiel beim Greifen eines Bohrers, müssen Roboter mit einer dynamischen Umgebungen, partieller Wahrnehmung, Model- und Ausführungsunsicherheit zurechtkommen. In dieser Arbeit identifizieren wir Einschränkungen von modellbasierten Ansätzen des gegenwärtigen Standes der Technik für Manipulationsaufgaben und untersuchen wie man diese mit Lernverfahren kombinieren und verbessern kann, um autonome Manipulation zu ermöglichen. Maschinelle Lernverfahren wie , die mithilfe von großen Datenmengen ein gutes Modell lernen, sind sehr geeignet für die Robotik, da Roboter ihre Umgebung mithilfe von einer Vielzahl an Sensoren wahrnehmen und dadurch eine Fülle von Daten erzeugen. Im Gegensatz zu anderen Forschungsgebieten, wie zum Beispiel Sprach- und Bildverarbeitung, interagieren Roboter mit ihrer Umgebung, sodass Vorhersagen einen physikalischen Einfluss auf die Umgebung haben. Aufgrund der Interaktion mit der Umgebung und der kontinuierlichen Wahrnehmung ergibt sich eine Rückkopplungsschleife die neue Herangehensweisen erfordert um Sicherheitsbedenken und Geschwindigkeitsanforderungen zu erfüllen.
Das Ziel dieser Dissertation ist es zu untersuchen, wie man bestehende Robotersysteme mithilfe von verbessern kann. Dabei ist es wichtig das vorhandene domänenspezifische Wissen nicht zu vernachlässigen, sondern in die zu integrieren. Die Ergebnisse dieser Arbeit zeigen, dass Ansätze Methoden sehr gut ergänzen und es ermöglichen Probleme, die ansonsten unlösbar wären, zu lösen. Wir zeigen, wie man bestehende Modelle zum Trainieren von Lernverfahren verwenden kann. Dadurch wird problemspezifisches Expertenwissen in den Datengenerierungsprozess integriert und somit an das gelernte Modell weitergegeben. Wir entwickeln außerdem ein neues Optimierungsverfahren, das während der Optimierung etwas über den Vorgang an sich lernt. Ein solches Verfahren ist sehr relevant für eine Vielzahl von Problemen in der Robotik, da Manipulationssysteme kontinuierlich neue Aufgaben lösen müssen.
Im Folgenden stellen wir die Hauptbeiträge dieser Dissertation vor, eingebettet in den Kontext von Manipulationsaufgaben.
Der Hauptbeitrag dieser Arbeit ist ein voll integriertes Manipulationssystem das erste einheitliche Experimente und dadurch empirische Ergebnisse ermöglicht. Diese zeigen eindeutig, dass kontinuierliche, zeitnahe Wahrnehmung und die Integration mit schnellen Verfahren zur Erzeugung von reaktiven Bewegungen essenziell für erfolgreiche Manipulation in dynamischen Szenarien ist. Wir vergleichen drei verschiedene Systeme, welche die gängigsten Architekturen im Bereich Robotik für Manipulation repräsentieren: (i) Ein traditioneller Ansatz (aktuell am weitesten verbreitet), (ii) einen myopischen Regelungsansatz, der nur auf lokale Veränderungen reagiert und (iii) ein reaktives Planungsverfahren, das auf Änderungen der Umgebung reagiert diese in die Bewegungsplanung einbezieht und den aktuellen Plan transparent an einen schnelleres lokales Regelungsverfahren übergibt. Unser Gesamtsystem ist rein und umfangreich auf einer realen Roboterplattform in vier Szenarien empirisch evaluiert worden. Unsere experimentellen Szenarien beinhalten anspruchsvolle Geometrien im Arbeitsraum des Roboters, dynamische Umgebungen und Objekte mit denen der Roboter interagieren muss. Diese Arbeit zeigt den aktuellen Stand der Forschung, der mit einem \textit{modellbasierten} Manipulationssystem im Bereich der Robotik unter Verwendung von schnellen Rückkopplungen und langsamerer reaktiver Planung möglich ist. Angesichts des Interesses in der Robotikforschung Systeme mit ganzheitlich zu ersetzen, ist es wichtig ein performantes Referenzsystem zu haben um neue Methoden qualitativ in Hinblick auf ihre Fähigkeiten und ihre Generalisierbarkeit zu vergleichen. Weiterhin erlaubt ein solches System Probleme mit Ansätzen zu identifizieren und diese mithilfe von Methoden zu verbessern.
Die meisten Robotermanipulationssysteme verfügen über viele Sensoren mit unterschiedlichen Modalitäten und Rauschverhalten. Die Entwicklung von für alle Sensoren ist nicht trivial und die resultierende Modelle zu komplex für Echtzeitverarbeitung in Manipulationssystem. Planen mit vielen Sensormodalitäten ist besonders komplex aufgrund der vielen Modellunsicherheiten. Dies ist besonders ausgeprägt für Manipulationsaufgaben bei denen Kontakte zwischen Roboter und Objekten von Bedeutung sind. Eine der Hauptherausforderung für autonome Manipulation ist daher die Erzeugung geeigneter multimodaler Referenztrajektorien, die es ermöglichen Steuerbefehle für Regelungssysteme zu berechnen die nicht modellierte Störungen kompensieren und damit die Erfüllung der gestellten Manipulationsaufgabe ermöglichen. In dieser Arbeit stellen wir einen Ansatz zur inkrementellen Erfassung von Referenzsignalen vor, der in Echtzeit entscheidet ein Verhalten abgebrochen und zu Verhalten gewechselt werden sollte, um eine erfolgreiche Ausführung zu gewährleisten. Wir formulieren dieses Online-Entscheidungsproblem als zwei miteinander verbundene Klassifikationsprobleme. Beide verarbeiten die aktuellen Sensormesswerte, zusammengesetzt aus mehreren Sensormodalitäten, in Echtzeit (in 30 Hz). Dieser Ansatz basiert auf unserem domänenspezifischen Problemverständnis, dass stereotypische Bewegungsgenerierung ähnliche Sensordaten erzeugt. Unsere Experimente zeigen, dass dieser Ansatz es ermöglicht schwierige kontextbasierte Aufgaben zu erlernen, die präzise Manipulation von relativ kleinen Objekten voraussetzen. Um eine solche Aufgabe zu erlernen, benötigt ein Benutzer unseres Systems kein Expertenwissen. Das System benötigt nur kinästhetische Demonstrationen und Unterbrechungen in Fehlersituationen. Die gelernte Aufgabenausführung ist robust gegen Störeinflüsse und Sensorrauschen, da unsere Methode online entscheidet, ob sie aufgrund von unerwarteter sensorischer Signale zu einer anderen Ausführung wechseln sollte oder nicht.
Greifen ist ein wichtiges Forschungsproblem in der Robotik, da es eine Grundvoraussetzung für Manipulation darstellt. In dieser Arbeit konzentrieren wir uns auf das Problem der Vorhersage von Position und Orientierung bevor ein Kontakt zwischen Objekt und Endeffektor eintritt. Für diesen grundlegenden Schritt um “erfolgreich zu greifen” stehen nur visuelle Sensordaten wie 2D-Bilder und/oder 3D-Punktwolken zur Verfügung. Die Verwendung von Greifplanern ist in solchen Situationen nicht optimal, da präzise Simulationen zu rechenintensiv sind und alle Objekte bekannt, erkannt und visuell verfolgt werden müssen. Verfahren die direkt von visuellen Sensordaten stabile Griffe vorhersagen sind sehr effizient in der Auswertung jedoch benötigen die aktuell vielversprechendsten Verfahren, neuronale Netze, eine Vielzahl von annotierten Beispielen um diese Abbildung zu lernen. Im Rahmen dieser Arbeit stellen wir eine umfangreichen Datenbank mit einer Vielzahl von Objekten aus sehr unterschiedlichen Kategorien vor. Auf Basis dieser Datenbank analysieren wir drei Aspekte: (i) Eine Crowdsourcing Studie zeigt, dass unsere neu vorgestellte Metrik auf Basis einer physikalischen Simulation ein besserer Indikator für Greiferfolg im Vergleich zu der bestehenden Standard ϵ-Metrik ist. Darüber hinaus deutet unsere Studie darauf hin, dass unsere Datengenerierung keine manuelle Datenannotation benötigt. (ii) Die daraus resultierende Datenbank ermöglicht die Optimierung von parametrischen Lernverfahren wie neuronale Netze. Dadurch, dass wir eine Abbildung von Sensordaten zu möglichen Griffen lernen, muss das Objekt, seine Position und Orientierung nicht bekannt sein. Darüber hinaus zeigen wir, dass einfachere Methoden wie logistische Regression nicht die Kapazität haben um die Komplexität unserer Daten zu erfassen. (iii) Roboter nehmen ein Szenario typischerweise aus einem Blickwinkel wahr und versuchen ein Objekt mit dem ersten Versuch zu greifen. Klassifikationsverfahren sind nicht speziell für diese Verwendung optimiert, weshalb wir eine neue Formulierung erarbeiten, welche die beste, Hypothese aus den jeweiligen Teilmengen auswählt. Diese neuartige Optimierungszielsetzung ermöglicht dies selbst auf unserem binären Datensatz, da das Lernverfahren selbst die Daten ordnet und somit einfach zu erkennende Griffe selbst auswählen kann.
Sichere Bewegungsausführung auf Basis von Regelungskreisen sind entscheidend für Roboter die mit Menschen kollaborativ Manipulationsaufgaben lösen. Daher werden neue Methoden benötigt, die es ermöglichen inversen Dynamikmodelle zu lernen und bestehende Modelle zu verbessern, um Verstärkungsgrößen in Regelungskreisen zu minimieren. Dies ist besonders wichtig, wenn Objekte manipuliert werden, da sich das bekannte inverse Dynamikmodell dadurch verändert. Aktuelle Verfahren, welche Fehlermodelle zu bestehenden Regler für die inverse Dynamik zu lernen, werden auf Basis der erzielten Beschleunigungen und Drehmomenten optimiert. Da die tatsächlich realisierten Beschleunigungen, eine indirekte Datenquelle, jedoch nicht die gewünschten Beschleunigungen darstellen, werden hohe Verstärkungen im Regelkreis benötigt, um relevantere Daten zu erhalten die es erlauben ein gutes Modell zu lernen. Hohe Verstärkung im Regelkreis ist wiederum schlecht für die Sicherheit. In dieser Arbeit leiten wir ein zusätzliches Trainingssignal her, das auf der gewünschten Beschleunigungen basiert und von dem Rückkopplungssignal abgeleitet werden kann. Wir analysieren die Nutzung beider Datenquellen in Simulation und demonstrieren ihre Wirksamkeit auf einer realen Roboterplattform. Wir zeigen, dass das System das gelernte inverse Dynamikmodell inkrementell verbessert. Durch die Kombination beider Datenquellen kann ein neues Modell konsistenter und schneller gelernt werden und zusätzlich werden keine hohen Verstärkungen im Regelungskreis benötigt.
Menschen sind bemerkenswert gut darin, neue oder angepasste Fähigkeiten schnell zu erlernen. Dies ist darauf zurückzuführen, dass wir nicht jede neue Fähigkeit von Grund auf neu erlernen, sondern stattdessen auf den bereits gewonnenen Fertigkeiten aufbauen. Die meisten robotergestützten Lernaufgaben würden davon profitieren, wenn sie ein solches abstraktes Meta-Lernverfahren zur Verfügung hätten. Ein solcher Ansatz ist von großer Bedeutung für die Robotik, da autonomes Lernen ein inhärent inkrementelles Problem ist. In dieser Arbeit stellen wir einen neuen vor, der es erstmals ermöglicht die Roboterdynamik online zu erlernen und auf neue Probleme zu übertragen. Während der Optimierung lernt unser Verfahren die Struktur der Optimierungsprobleme, welche für neue Aufgaben verwendet werden kann, was zu einer schnelleren Konvergenz führt. Das vorgeschlagene kann zudem mit jedem beliebigen gradientenbasierten Optimierungsansatz verwendet werden. Wir zeigen, dass unser Ansatz die Dateneffizienz für inkrementelles Lernen erhöht. Weiterhin ist unser Verfahren für das mit korrelierten Daten geeignet, zum Beispiel für inverse Dynamikmodelle. Der vorgestellte Ansatz eröffnet zusätzlich völlig neue Wege um in Simulation gewonnene Erfahrungen in die reale Welt zu transferieren. Dadurch kann möglicherweise bestehendes Domänenwissen in Form von Simulation auf völlig neue Weise verwendet werden
Predicting grasp success in the real world - A study of quality metrics and human assessment
Grasp quality metrics aim at quantifying different aspects of a grasp configuration between a specific robot hand and object. They produce a numerical value that allows to rank grasp configurations and optimize based on them. Grasp quality metrics are a key part of most analytical grasp-planning approaches. Additionally, they are often used to generate ground-truth labels for synthetically generated grasp exemplars required for learning-based approaches. Recent studies have highlighted the limitations of grasp quality metrics when used to predict the outcome of a grasp execution on a real robot. In this paper, we systematically study how well seven commonly-used grasp quality metrics perform in the real world. To this end, we generated two datasets of grasp candidates in simulation, each one for a different robotic system. The quality of these synthetic grasp candidates is quantified by the aforementioned metrics. For validation, we developed an experimental procedure to accurately replicate grasp candidates on two real robotic systems and to evaluate the performance of each grasp. Given the resulting datasets, we trained different classifiers to predict grasp success using only grasp quality metrics as input. Our results show that combinations of quality metrics can achieve up to a 85% classification accuracy for real grasps
- …